智能论文笔记

ck-means, a novel unsupervised learning method that combines fuzzy and crispy clustering methods to extract intersecting data

Jean-Sébastien Dessureault , Daniel Massicotte

分类：机器学习

2022-06-17

聚类数据是无监督的机器学习领域的流行功能。大多数算法旨在找到提取一致数据簇的最佳方法，但其中很少有打算聚集在两个或更多功能之间共享相同相交的数据。本文提出了一种方法。这种新颖方法的主要思想是使用模糊C均值（FCM）算法生成模糊的数据簇。第二部分涉及应用一个选择最低和最大成员价值范围的过滤器，从而强调边框数据。 {\ mu}参数定义了此范围的幅度。它最终使用FCM生成的成员价值应用K均值算法。自然，具有相似会员价值的数据将在新的脆皮集群中重新组合。该算法还能够根据Silhouette索引（SI）给出的簇的一致性找到FCM和K-均值算法的最佳簇数。结果是一个数据和簇的列表，该列表重组数据共享相同的交叉点，与两个或更多功能相交。 CK均值允许提取自然而然地属于同一群集而是在两个或更多簇的相交的非常相似的数据。该算法也总是发现自己是簇的最佳数量。

translated by 谷歌翻译

Explainable Global Error Weighted on Feature Importance: The xGEWFI metric to evaluate the error of data imputation and data augmentation

Jean-Sébastien Dessureault , Daniel Massicotte

分类：机器学习

2022-06-17

评估算法的性能至关重要。评估数据插补和数据增强的性能可能相似，因为两个生成的数据都可以与原始分布进行比较。虽然，典型的评估指标具有相同的缺陷：它们计算了功能的错误和生成数据上的全局误差，而无需将误差加权功能重要性加权。如果所有功能的重要性都相似，则结果可能是好的。但是，在大多数情况下，功能的重要性是不平衡的，并且可能引起对特征和全局错误的重要偏见。本文提出了一个名为“可解释的全局误差以特征重要性加权”的新颖指标（XGEWFI）。该新的度量标准以整体预处理方法进行测试，该方法1.检测到异常值并用无效的值代替它们。 2.渗出数据丢失，3。增加数据。在过程结束时，计算XGEWFI错误。原始数据和生成数据之间的分布误差是使用每个功能的Kolmogorov-Smirnov测试（KS测试）计算的。这些结果乘以相应特征的重要性，该特征是使用随机森林（RF）算法计算得出的。度量结果以可解释的格式表示，旨在伦理AI。

translated by 谷歌翻译

DPDR: A novel machine learning method for the Decision Process for Dimensionality Reduction

Jean-Sébastien Dessureault , Daniel Massicotte

分类：机器学习

2022-06-17

本文讨论了在监督学习环境中提取或选择功能的关键决策过程。找到一种合适的方法来降低维度，这通常是令人困惑的。根据数据的性质和用户的喜好在功能选择和功能提取之间有利弊。实际上，用户可能希望强调朝着完整性或解释性以及特定数据解决方案的结果。本文提出了一种新方法，以在监督的学习环境中选择最佳的降维方法。它还有助于删除或重建功能，直到达到目标分辨率为止。该目标分辨率可以用户定义，也可以由该方法自动定义。该方法应用回归或分类，评估结果，并在此特定的监督学习环境中诊断出最佳维度降低过程。所使用的主要算法是随机森林算法（RF），主要成分分析（PCA）算法和多层感知器（MLP）神经网络算法。提出了六个用例，每个用例都基于一些众所周知的技术来生成合成数据。这项研究讨论了可以在此过程中做出的每个选择，旨在阐明选择或提取功能的整个决策过程的问题。

translated by 谷歌翻译

A Lightweight Force-Controllable Wearable Arm Based on Magnetorheological-Hydrostatic Actuators

Catherine Véronneau , Jeff Denis , Louis-Philippe Lebel , Marc Denninger , Jean-Sébastien Plante , Alexandre Girard

分类：机器人

2022-06-27

超级机器人四肢（SRL）是可穿戴的机器人，通过充当同事，到达物体，支撑人的武器等来增强人类能力。但是，现有的SRL缺乏可控制互动力所需的机械背景和带宽作为绘画，操纵脆弱的物体等。具有高带宽的高度背景，而最小化重量则带来了由常规电磁执行器的有限表现施加的重大技术挑战。本文研究了使用磁性（MR）离合器耦合到低摩擦式静液传动的可行性，以提供高功能强大但可轻巧，可控制的SRL。设计和建造了2.7千克二线可穿戴机器人手臂。肩膀和肘关节的设计可提供39和25 nm，运动范围为115和180 {\ deg}。在一氧化基督测试台上进行的实验研究并在分析上进行了验证，即使在与外部阻抗相互作用时，也表明了高力带宽（> 25 Hz），并且能够控制相互作用的能力。此外，研究并通过实验研究了三种力对照方法：开环，闭环力和压力上的闭环。所有三种方法均显示为有效。总体而言，拟议的MR-Hydrstoratic致动系统非常适合与人类和环境相互作用的轻量级SRL，从而增加了无法预测的干扰。

translated by 谷歌翻译

Feature selection or extraction decision process for clustering using PCA and FRSD

Jean-Sebastien Dessureault , Daniel Massicotte

分类：机器学习

2021-11-20

本文涉及在应用聚类算法之前提取或选择要素的关键决策过程。评估功能的重要性并不明显，因为通常是用于监督学习技术过程的最流行的方法。聚类算法是一种无人监督的方法。这意味着没有已知的输出标签来匹配输入数据。本文提出了一种新方法，根据数据科学家的参数选择最佳维度减少方法（选择或提取），旨在在最后应用聚类过程。它使用基于轮廓分解（FRSD）算法的特征排序过程，主成分分析（PCA）算法和K均值算法以及其度量，轮廓索引（SI）。本文介绍了基于智能城市数据集的5个用例。本研究还旨在讨论可以在这种无监督的学习过程中进行的每个选择的影响，优势和缺点。

translated by 谷歌翻译

Bayesian Error-in-Variables Models for the Identification of Power Networks

Jean-Sébastien Brouillon , Emanuele Fabbiani , Pulkit Nahata , Keith Moffat , Florian Dörfler , Giancarlo Ferrari-Trecate

分类： (统计)机器学习

2021-07-09

越来越多的间歇可再生能源的整合，特别是在分配水平，需要对TheGrid的知识而设计的先进规划和优化方法，特别是捕获电网拓扑和线参数的进入矩阵。然而，对进入矩阵的可靠估计可以丢失或迅速地过时用于时间变化网格。在这项工作中，我们提出了利用从微量PMU收集的电压和电流测量的数据驱动的识别方法。更确切地说，我们首先呈现最大的似然方法，然后朝着贝叶斯框架移动，利用最大后验估计的原则。与大多数现有的Con-Tribution相比，我们的方法不仅是电压和电流数据上的测量噪声中的因素，而且还能够利用可用的先验信息，例如稀疏性模式和已知的列表参数。在基准案件上进行的模拟表明，与储藏仪相比，我们的方法可以实现明显更大的准确性。

translated by 谷歌翻译